Voici la Boîte à Outils 2
"Étiquetage"

Le but de la Boîte à Outils 2, c'est d'étiqueter les fichiers du fils RSS.

A l'aide du programme PERL "parcours-arborescence-fichiers", où l'étiqueteur TreeTagger est directement intégré, on peut donc effectuer l'étiquetage des fils RSS. En effet, j'ai procédé à cette exécution pour mes 3 rubriques choisies. Le temps d'étiquetage via la fenêtre de commande est très long, de ce fait, je n'ai choisi que 3 rubriques à étiqueter. A la fin de cet étiquetage, on se retrouve avec deux fichiers : Un fichier XML où la rubrique a été étiquetée sur toute l'année, et ensuite un fichier TXT où sont regroupés tous les TITRES et les DESCRIPTIONS des rubriques sélectionnées.

Voici une première partie du programme PERL afin de générer l'étiquetage via TreeTagger

Voici une deuxième partie du programme PERL afin de générer l'étiquetage via TreeTagger

Voici la partie du programme consacrée à TreeTagger afin d'étiqueter les fichiers du fils RSS"

Voici comment lancer le programme perl dans la fenêtre de commande :
"programme-parcours-arborescence-fichiers-2018.pl 2017 3208"


Les fichiers XML de sorties étant trop volumineux, voici directement les liens vers ces derniers pour les rubriques que j'ai choisi:

sortie_3208.xml

sortie_3246.xml

sortie_3214.xml

Voici les fichiers txt générés aussi avec le même programme:

sortie_3208.txt

sortie_3246.txt

sortie_3214.txt

Voici le script entier présenté ci-dessus partiellement par captures d'écran:

Script Parcours-Arborescence-Fichiers.pl


_______________________________________________________________________________________________________


"CORDIAL"


Les sorties txt vont être maintenant étiquetées avec le logiciel Cordial.

Il faut avant tout convertir les fichiers txt obtenus avec le programme de parcours en ANSI (ou iso-8859) afin que Cordial puisse prendre en compte le fichier.

Voici un exemple en image du fichier txt 3208 étiqueté avec Cordial.

Les fichiers étiquetés avec Cordial sont disponibles ci-joint:

sortie_3208.cnr

sortie_3246.cnr

sortie_3214.cnr


_______________________________________________________________________________________________________


"TREETAGGER EN LIGNE"


Afin d'aller un peu plus loin dans la BAO 2, j'ai aussi étiqueté mes textes avec directement l'outil en ligne TreeTagger

Ce dernier est très facile d'accès et son travail d'étiquetage ne prend même pas 1 minute. Cependant, pour avoir déjà essayé avec un texte assez court, on peut voir qu'il n'est peut-être pas aussi perfomant que le logiciel lui-même, ou bien Cordial.

De plus, chaque logiciel à sa propre manière d'étiqueter un texte, et donc sa propre "tagset" c'est-à-dire comment il attribut les étiquettes aux mots et par quels "abréviations". Ces dernières peuvent varier aussi selon les langues.

Ici le lien afin d'accéder à l'outil : TreeTagger en Ligne

Voici un exemple en image du fichier txt 3208 étiqueté avec l'outil TreeTagger en ligne

Ci-dessous tous les fichiers étiquetés avec cet outil:

3208.txt

3246.txt

3214.txt